HDFS详解
1 HDFS 基本概念
1.1 前言
- 设计思想
分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;
- 在大数据系统中作用
为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务
- 重点概念
文件切块,副本存放,元数据
1.2 HDFS概念和特性
首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件;
其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;
重要特性如下:
- HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M
- HDFS文件系统会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data
- 目录结构及文件分块信息(元数据)的管理由namenode节点承担。namenode是HDFS集群主节点,负责维护整个hdfs文件系统的目录树,以及每一个路径(文件)所对应的block块信息(block的id,及所在的datanode服务器)
- 文件的各个block的存储管理由datanode节点承担。datanode是HDFS集群从节点,每一个block都可以在多个datanode上存储多个副本(副本数量也可以通过参数设置dfs.replication)
- HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改(注:适合用来做数据分析,并不适合用来做网盘应用,因为,不便修改,延迟大,网络开销大,成本太高)
1.3 基本操作
命令 | 功能 | 示例 |
---|---|---|
-help | 输出命令参数手册 | |
-ls | 显示目录信息 | hadoop fs -ls / |
-mkdir | 创建目录 | hadoop fs -mkdir -p /aaa/bb/cc/dd |
-moveFromLocal | 从本地剪切到hdfs | hadoop fs -moveFromLocal /home/hadoop/1.txt /aaa/bb/cc/dd |
-moveToLocal | 从hdfs剪切到本地 | hadoop fs -moveToLocal /aaa/bb/cc/dd /home/hadoop/1.txt |
-appendToFile | 追加一个文件到已经存在的文件末尾 | hadoop fs -appendToFile ./hello.txt /hello.txt |
-cat | 查看文件内容 | hadoop fs -cat /hello.txt |
-tail | 显示一个文件的末尾 | hadoop fs -tail /access_log.1 |
-text | 以字符形式打印一个文件的内容 | hadoop fs -text /access_log.1 |
-chgrp/-chmod/-chown | 修改文件权限 | hadoop fs -chmod 755 /hello.txt |
-copyFromLocal | 从本地文件系统中拷贝文件到hdfs路径去 | |
-copyToLocal | 从hdfs拷贝到本地 | |
-cp | 从hdfs的一个路径拷贝到hdfs另一个路径 | |
-mv | 在hdfs中移动文件 | |
-get | 等同于copyToLocal | |
-put | 等同于copyFromLocal | |
-getmerge | 合并下载多个文件 | |
-rm | 删除文件或文件夹 | hadoop fs -rm -r /aaa/bbb |
-rmdir | 删除空目录 | hadoop fs -rmdir /aaa/bbb/ccc |
-df | 统计问价那系统的可用空间信息 | hadoop fs -df -h / |
-du | 统计文件夹的大小信息 | hadoop fs -du -s -h /aaa/* |
-count | 统计一个指定目录下的文件节点数量 | hadoop fs -count /aaa/ |
-setrep | 设置hdfs中文件的副本数量 | hadoop fs -setrep 3 /aaa/jdk.tar |
2 HDFS 原理
2.1 概述
- HDFS集群分为两大角色:NameNode、DataNode
- NameNode负责管理整个文件系统的元数据
- DataNode 负责管理用户的文件数据块
- 文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上
- 每一个文件块可以有多个副本,并存放在不同的datanode上
- Datanode会定期向Namenode汇报自身所保存的文件block信息,而namenode则会负责保持文件的副本数量
- HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过向namenode申请来进行
2.2 HDFS 读写数据详细步骤
2.2.1 写数据
- 根namenode通信请求上传文件,namenode检查目标文件是否已存在,父目录是否存在
- namenode返回是否可以上传
- client请求第一个 block该传输到哪些datanode服务器上
- namenode返回3个datanode服务器ABC
- client请求3台dn中的一台A上传数据(本质上是一个RPC调用,建立pipeline),A收到请求会继续调用B,然后B调用C,将真个pipeline建立完成,逐级返回客户端
- client开始往A上传第一个block(先从磁盘读取数据放到一个本地内存缓存),以packet为单位,A收到一个packet就会传给B,B传给C;A每传一个packet会放入一个应答队列等待应答
- 当一个block传输完成之后,client再次请求namenode上传第二个block的服务器。
2.2.2 读数据
2.3 NameNode工作机制
NAMENODE职责:
1、负责客户端请求的响应
2、元数据的管理(查询,修改)
namenode对数据的管理采用了三种存储形式:
1、内存元数据(NameSystem)
2、磁盘元数据镜像文件
3、数据操作日志文件(可通过日志运算出元数据)
2.3.1 元数据的存储机制
A、内存中有一份完整的元数据(内存meta data)
B、磁盘有一个“准完整”的元数据镜像(fsimage)文件(在namenode的工作目录中)
C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志(edits文件)注:当客户端对hdfs中的文件进行新增或者修改操作,操作记录首先被记入edits日志文件中,当客户端操作成功后,相应的元数据会更新到内存meta.data中
2.3.2 元数据的checkpoint
每隔一段时间,会由secondaryNamenode 将 namenode 上积累的所有edits和一个最新的fsimage下载到本地,并架子啊到内存进行merge(这个过程称为checkpoint)
checkpoint的详细过程
checkpoint操作的出发条件配置参数
chekcpoint的附带作用
namenode和secondary namenode的工作目录存储结构完全相同,所以,当namenode故障退出需要重新恢复时,可以从secondary namenode的工作目录中将fsimage拷贝到namenode的工作目录,以恢复namenode的元数据
2.3.3 元数据目录说明
1、在第一次部署好Hadoop集群的时候,我们需要在NameNode(NN)节点上格式化磁盘:$HADOOP_HOME/bin/hdfs namenode -format
2、格式化完成之后,将会在$dfs.namenode.name.dir/current目录下如下的文件结构
|
|
3、其中的dfs.name.dir是在hdfs-site.xml文件中配置的,默认值如下:
|
|
4、fs.namenode.name.dir属性可以配置多个目录,
如/data1/dfs/name,/data2/dfs/name,/data3/dfs/name,….。各个目录存储的文件结构和内容都完全一样,相当于备份,这样做的好处是当其中一个目录损坏了,也不会影响到Hadoop的元数据,特别是当其中一个目录是NFS(网络文件系统Network File System,NFS)之上,即使你这台机器损坏了,元数据也得到保存。
5、下面对$dfs.namenode.name.dir/current/目录下的文件进行解释。
VERSION文件是Java属性文件,内容大致如下:
|
|
- 1、namespaceID是文件系统的唯一标识符,在文件系统首次格式化之后生成的
- 2、storageType说明这个文件存储的是什么进程的数据结构信息(如果是DataNode,storageType=DATA_NODE)
- 3、cTime表示NameNode存储时间的创建时间,由于我的NameNode没有更新过,所以这里的记录值为0,以后对NameNode升级之后,cTime将会记录更新时间戳
- 4、layoutVersion表示HDFS永久性数据结构的版本信息, 只要数据结构变更,版本号也要递减,此时的HDFS也需要升级,否则磁盘仍旧是使用旧版本的数据结构,这会导致新版本的NameNode无法使用
5、clusterID是系统生成或手动指定的集群ID,在-clusterid选项中可以使用它;如下说明
- a、使用如下命令格式化一个Namenode:
$HADOOP_HOME/bin/hdfs namenode -format [-clusterId]
选择一个唯一的cluster_id,并且这个cluster_id不能与环境中其他集群有冲突。如果没有提供cluster_id,则会自动生成一个唯一的ClusterID。 - b、使用如下命令格式化其他Namenode:
$HADOOP_HOME/bin/hdfs namenode -format -clusterId - c、升级集群至最新版本。在升级过程中需要提供一个ClusterID,例如:
$HADOOP_PREFIX_HOME/bin/hdfs start namenode –config $HADOOP_CONF_DIR -upgrade -clusterId
如果没有提供ClusterID,则会自动生成一个ClusterID。
- a、使用如下命令格式化一个Namenode:
6、blockpoolID:是针对每一个Namespace所对应的blockpool的ID,上面的这个BP-893790215-192.168.24.72-1383809616115就是在我的ns1的namespace下的存储块池的ID,这个ID包括了其对应的NameNode节点的ip地址。
seen_txid
$dfs.namenode.name.dir/current/seentxid非常重要,是存放transactionId的文件,format之后是0,它代表的是namenode里面的edits*文件的尾数,namenode重启的时候,会按照seen_txid的数字,循序从头跑edits_0000001~到seen_txid的数字。所以当你的hdfs发生异常重启的时候,一定要比对seen_txid内的数字是不是你edits最后的尾数,不然会发生建置namenode时metaData的资料有缺少,导致误删Datanode上多余Block的资讯。
文件中记录的是edits滚动的序号,每次重启namenode时,namenode就知道要将哪些edits进行加载edits
current目录
$dfs.namenode.name.dir/current目录下在format的同时也会生成fsimage和edits文件,及其对应的md5校验文件。
2.4 NameNode的SafeMode
NameNode在刚启动时,内存中只有文件名、文件块的BlockId、文件的副本量,但不知道Block所在的DataNode。
NameNode需要等待所有的DataNode向他汇报自身持有的块信息,NameNode才能在元数据中补全文件块信息中的位置信息。
只有当NameNode找到99.8%(默认)的块位置信息时,才会退出安全模式,正常对外提供服务。
3 HDFS API
3.1 普通方式
|
|
3.2 流方式
|
|
4 Hadoop中的RPC框架
Hadoop中各个节点的远程调用非常频繁,他自己封装了一套RPC框架,我们也可以直接拿来用,只需要导入Hadoop的common包即可,与Hadoop集群启动与否毫无关系。
假设我们需要远程调用一个登陆服务,使用Hadoop的RPC框架很容易就可以实现。
服务接口
|
|
服务实现
|
|
服务启动
|
|
客户端远程调用
|
|
客户端输出
NikoBelic, 你好啊!